La generación de datos ha experimentado un auge gracias a la digitalización de actividades cotidianas.
Este aumento en la generación de información ha llevado a un crecimiento exponencial de los datos almacenados.
Las actividades en línea, transacciones comerciales y registros gubernamentales son ejemplos clave de fuentes generadoras de datos.
Para 2020, se estimó un aumento exponencial de información, previéndose alrededor de 40 trillones de GB.
Fuentes como redes sociales y plataformas gubernamentales son clave en esta expansión.
Surgen desafíos en su gestión y almacenamiento debido a su velocidad y volumen.
El análisis de datos es esencial para aprovechar estos datos en campos como la ciencia de datos.
El alto nivel de producción de datos también es una OPORTUNIDAD.
Definiendo Ciencia de Datos: - Extraer y generar conocimiento desde los datos.
Física, Biología, Química, todas son ciencias que estudian el sistema propio de cada cual.
La ciencia de datos, tiene a los datos como objeto de estudio.
Uso de datos
Métodos
RESPONDER PREGUNTAS
VELOCIDAD: La rapidez en el procesamiento y análisis de datos.
VARIEDAD: El uso de datos desde diferentes formatos. Excluir las dificultades.
VALOR: Desarrollo e impacto del uso de los datos.
VERACIDAD: Calidad y validez de los datos.
VOLUMEN: El uso de datos masivos desde diferentes fuentes.
Se usaron datos del padrón electoral
Datos censales
Datos de nivel socioeconómico
Análisis de redes, econometría, trabajo de análisis con texto.
La relevancia de la ciencia de datos surge por la gran disposición de datos. (Volumen)
Múltiples métodos y algoritmos.
Amplia disponibilidad de software para el desarrollo y procesamiento.
Las dificultades de almacenamiento y procesamiento han ido decreciendo.
“The sexiest for in the 21th century….”
En este curso:
…antes… no basta con saber programar y procesar datos, la mitad del trabajo es antes… durante… después…
Algunas consideraciones importantes:
Curiosidad: Motivación por “explorar” los datos, innovar frente a problemas. No todo es explícito.
Dominio: El aporte que queremos generar debe basarse en conocimiento científico. Recordar el atributo de VERACIDAD.
Argumentación: Las respuestas generadas desde nuestros análisis deben proceder desde el uso de métodos adecuados y una buena interpretación de los resultados. Manejar nuestras hipótesis.
Dominio de plataformas: Aún cuando la experticia sobre códigos y herramientas, es necesario tener cierta versatilidad para manejar diferentes plataformas para diferentes problemas.
Comunicar resultados: Saber contar una historia. Se requieren preguntas e hipótesis que podamos demostrar mediante la visualización de datos.
¿Tod@s tenemos estas características?
Los sistemas físicos de cómputo cada día presentan más problemas
Dropbox, Drive, ICloud. etc
La virtud está en que la “nube”, es algo más que el almacenamiento
Poder de almacenamiento y poder de cómputo.
Ejecutar cálculos de manera sincronizada en una gran cantidad de computadoras en red
HPC permite ejecutar cálculos que son demasiado grandes para las computadoras normales, lo que reduce el tiempo que lleva completar operaciones grandes
HPC permite la simulación o el análisis de grandes volúmenes de datos que, de otro modo, sería imposible hacer con computadoras estándar
Una sola computadora de alto rendimiento se compone de un grupo de computadoras llamado clúster.
Cada nodo tiene un sistema operativo que consta de un procesador con múltiples núcleos, almacenamiento y capacidades de red que permiten que los nodos se comuniquen entre sí.
nodo: computador
- 16 nodos
4 núcleos por procesador
red
Sistema de alto rendimiento computacional
Cargar algoritmos necesarios para el análisis de volúmenes gigantes de información.
Utilización de máquinas virtuales.
MULTIAGENTES, esto es, la posibilidad de desarrollar varias tareas al mismo tiempo.
En la actualidad, contamos una gran cantidad de plataformas
Inicialmente, una buena parte de las plataformas eran de tipo PAGO
Stata, SPSS, InfoStat,etc
Si bien hace bastante tiempo se iniciaron plataformas de tipo “open source”….
En su mayoría no eran tan conocidas, el soporte entre la comunidad era bastante bajo
Falta de redes, recursos y formas de interconectividad
En este curso:
En general, R y Python han desarrollado sus propias lineas con diferentes especializaciones
Diferentes comunidades
¿PODEMOS TRABAJAR EN CONJUNTO?
Las herramientas contenidad en forma de librerías o paquetes de desarrollo, se clasifican de tres formas:
Manejo de datos no estructurados
Métodos matematicos, estadísticos, machine learning
Herramientas de Visualización
Cuándo hablamos de datos, de qué hablamos?
Pensemos en datos……
Aquellos datos que se encuentran tabulados
Pensemos en tablas de excel o varias tablas con información cruzada
XLSX, CSV, SQL
¿siempre es posible?
¿Todos los datos se encuentran asi?
Probablemente el 90% de los datos disponibles
Potenciales análisis, ricos en información y metadatos
La combinación entre data rapidamente estructurable y otra más compleja, reduce la dimensionalidad de los problemas.
¿Qué otros datos?
La cantidad de información que podemos recolectar es abundante
Mejorar estrategias, enfoques y análisis
Algunas dificultades?
Extracción de datos: Un desafío constante
Uso de APIs
Web Scraping
Cómo hemos entendido hasta ahora las etapas de la ciencia de datos?
Cómo desarrolamos/desplegamos un proyecto de ciencia de datos?
OPINIONES
¿Recuerdan el primer diagrama?
Diversos métodos y procesos combinados
Análisis econometrico: Test de hipotesis,modelos de regresión, etc
Uso de modelos de aprendizaje automatico
Modelos de clasificación de texto, imagen, audio, etc
Modelos predictivos, que ocurrirá en el futuro?
Especificar escenarios, robustecer nuestro modelo
El costo computacional, exige que los datos se encuentren “formateados” y “adaptados” para el análisis.
La última etapa del proceso de generar información
Debe efectuarse con precisión y claridad
Lo que aquí se genere es lo que vamos a Interpretar y Comunicar